出品 | AI科技大本营(ID:rgznai100)
打响第一枪:占领高地
从 PaddlePaddle 到飞桨
2016 年,百度 PaddlePaddle 打响了国产 AI 框架开源的第一枪。作为最早研究深度学习技术的公司之一,百度早在 2013 年即设立了深度学习研究院,并于 2016 年正式开源深度学习框架,而 PaddlePaddle 也身负百度抢占人工智能时代高地的重要使命。2018 年 7 月,李彦宏在百度 AI 开发者大会上喊出了要让“Everyone Can AI”的口号,其实这句口号后面还要加上一个限定——“通过百度的 AI 平台”。 这也意味着,PaddlePaddle 就是这场攻坚战中的突破点之一。2019 年 4 月,时任百度高级副总裁(现百度 CTO)王海峰在 Wave Summit 深度学习开发者峰会上,为深度学习框架 PaddlePaddle 在百度内部的战略地位进行了定调。PaddlePaddle 发布中文名“飞桨”,开始强调自己更懂中国开发者,以及更加专注于深度学习模型的工业生产和部署。随着 AI 成为国家战略,在自主可控的号召下,作为底层的深度学习框架更受关注,相比于国内的同行,百度更早的迈出了这一步,也就有了先发优势。经过 4 年的发展,飞桨在 GitHub 上已经有 62 个 Repositories,共收获 47000+ Star,成为国产开源项目的佼佼者。而 CSDN 联合职场社交平台脉脉联合发布的 2020 年《中国 AI 应用开发者报告》也显示,百度飞桨已经成为最受中国开发者欢迎的国产深度学习开源框架。
自 2007 年 Theano 诞生以来,经过十余年发展,深度学习技术与应用突飞猛进,深度学习框架也处在不断迭代与进化的过程。作为我国首个开源开放、功能完备的产业级深度学习平台,飞桨想要保持自己的地位,也必须要有自己独特的优势。那么要如何定义飞桨的优势?总的来说,飞桨有以下 4 大领先技术。
第一,同时支持动态图和静态图的编程,能够兼顾易用性和效率。在整个开发过程当中,算法工程师既需要方便的接口,同时也需要高效的底层平台的支持。飞桨平台结合了动态图的易用性和静态图的高性能,使开发者可以兼顾两者的优势。对开发者来说,这是大大降低了写程序的成本和复杂度。第二,针对大规模的工业化场景,飞桨提供大规模分布式训练能力,在真正的工业场景应对自如。飞桨平台推出了支持万亿规模参数模型的实时更新能力和训练能力。面对大型分类任务时可以进行模型并行训练,在训练层面也可以支持数据并行训练。第三,端到端的部署是应用深度学习的一个非常关键的环节,飞桨提供非常完备的支持各种硬件的端到端的部署能力,能够使得开发者推理、预测的过程足够顺畅。在移动端部署的模型体积上,飞桨可以缩减到非常小,众多开发者可以更好地把模型用在相应场景的终端设备上。第四,飞桨有大量在产业实践当中沉淀出来的模型,并提供官方的支持,能够保证开发者的应用效果是最佳的、真正可靠的。据悉,飞桨平台上目前开源了 140+ 的模型,而且还有工业级的预训练模型。在预训练模型基础上,开发者在使用时只要针对自己的场景进行小数据量的迁移学习就可以使用。此外,飞桨也在迅速迭代,近日飞桨在动态图和 API 体系刚刚进行了一次全面的升级。升级之后,飞桨将提供更加完备和性能更优的动态图功能,以及更全面的动态图转静态图运行功能,在开发上实现“动静统一”。“动静统一”的优势是开发者可以兼顾效率与灵活度。在动转静方面,飞桨现在已经支持完备的语法覆盖和带控制流的任务,且仅需一个装饰器就可以触发操作,统一的接口可以让模型保存加载实现自动适配。在动态图方面,飞桨提供了比静态图更简洁灵活的混合精度训练接口,并且实现媲美静态图的混合精度与量化训练效果。另外,飞桨还形成了贴合用户使用习惯的全新 API 体系,目录结构更清晰,对用户更加友好;为了减少开发者的工作量,飞桨提供了包含视觉、NLP 等领域的模型和工具封装的高层 API,以及最经典的模型结构;在兼容性上,飞桨可兼容 1.X版本的 API,并配备了完善的教程帮助用户自主顺利升级至新版 API,获得更佳的体验。而且飞桨已可适配 22 种芯片型号,覆盖英特尔、英伟达、瑞芯微、寒武纪等15家硬件厂商,且对国产硬件的支持力度业界第一。为了进一步实现软硬结合,加速 AI 的发展,百度还先后推出了两代昆仑芯片。目前,百度昆仑芯片一代已经大规模部署,在百度搜索引擎及云计算任务上部署了 2 万片。据介绍,百度昆仑芯片在百度搜索引擎等部署场景中,相比英伟达T4 GPU 性能在不同模型下提升 1.5-3 倍。而在刚刚过去的百度世界 2020 上,百度智能芯片总经理欧阳剑还预发布了国内首款云端通用AI处理器“百度昆仑2”,采用更先进的 7nm 工艺,性能最高可超过前代 3 倍,预计明年初量产。
为了扩大自己的生态圈,吸引更多的开发者,百度也在持续建设自己 AI 生态系统,希望跟更多产业合作共赢,实现百度 AI 生态合作的长远计划。除了 AI 技术,既懂应用场景又懂 AI 技术的复合型人才也是 AI 产业化过程的关键。2019 年 1 月 19 日,百度宣布成立“黄埔学院”,开展深度学习架构师培养计划。并借鉴了黄埔军校大门对联的横批“革命者来”,将口号设置为“革新者来”。黄埔学院的宗旨是“为中国产业界培养第一批首席 AI 架构师”。 2020 年 9 月,百度黄埔学院第三期 65 位学员毕业,创办以来已向业界输出 135 位 AI 落地产业的高端人才。此外,百度和各高校合作开设人工智能课程,培养了上千名 AI 专业教师。同时也面向产业 AI人群,培养更多复合型人才。截止目前,百度已经培养 AI 人才超过 100 万。未来 5 年 ,百度还计划培养 500 万 AI 人才。人能尽其才,物能尽其用,则为富强之大经。AI 人才正成为企业核心竞争力,更推动着中国技术革命与产业智能化发展持续向前全速前进。今天,在飞桨平台已经有 230 万的开发者使用,服务到了 9 万家企业,创建了 31 万个模型。过去半年多的时间里,有 40% 到 50% 的增长,而这就是生态的力量。从个人开发者,到高校开发者,再到企业开发者,一切都是为了壮大飞桨的生态圈,促进百度的 AI 落地。
合纵连横:开源开放
创造产业升级的加速度
在近期举行的2020中关村论坛上,百度 CTO 王海峰表示,人工智能高速发展,已成为新一轮科技革命和产业变革的重要驱动力量。这其中,人工智能技术的开源创新起到了很大的作用。一方面,开源创新可以加速技术的创新发展,不断拓展人类认知边界和技术边界;另一方面,所有开发者都可以基于开源开放的成果开发自己的项目、产品及业务,更便捷、高效、安全地推进技术创新与应用。实际上,从十年前布局人工智能开始,百度即本着开源开放的精神,开放 AI 核心技术供全社会使用。早在 2012 年,百度就开放了翻译的 API。如今,百度翻译每天的翻译量已经达到了 1000 亿字符。2013 年,百度又开放了语音平台,现在每天的调用量超过 150 亿。2016 年,在开源飞桨的同时,百度也开放了百度大脑的AI 能力,现在每日调用量超过1万亿次。作为开源软件,飞桨一直在建设开源社区。目前,飞桨已经凝聚了 230 万开发者,服务超过 9 万家企业,创造出 31 万多个模型。而飞桨推出的飞桨开发者 PPDE 计划也共建了开源社区,组建了 22 个飞桨地方社群,100 多个高校社群。而随着开源开放的进一步推动,人工智能已成为新一轮科技革命和产业变革的重要驱动力量。2019 年 10 月,百度公司董事长兼首席执行官李彦宏在第六届世界互联网大会上提出,我们正在迎来智能经济时代。智能经济会催生很多新的业态,产业智能化也将成为新的潮流。在产业与 AI 结合实现产业智能化的进程中,AI 平台起着越来越重要的作用,飞桨的作用也越来越突显。在业务实践中,类似飞桨这样成熟可靠,已被大量产业级应用验证的开源平台,不仅为技术开发和企业创新不断降低着门槛,更为整个产业智能化升级不断加速。例如在工业安全领域,飞桨携手国家电网和山东信通打造电网智能巡检方案,分析准确率达到90%,报警响应速度从小时级提升为秒级;在林业巡检领域,普宙飞行器科技有限公司基于飞桨深度学习技术,专门为森林巡检行业定制开发了一款无人机自主飞行+应用管理平台,可实现大范围森林的自主巡逻、火情监测、非法入侵、森林树木砍伐监测等功能,目前已阻止10余起非法砍伐……只有当技术渗透进这个社会方方面面,被组织或个人所“感知”,AI 才能真正民主化,赋能千行万业。而以百度飞桨为代表的人工智能技术,正在致力于与产业深入融合,帮助开发者们以一种史无前例的方式攻克产业难关,把过去的一个个“不可能”变成今天中国产业智能化的现实。让每个普通人都可以真实地读懂 AI,利用 AI,读懂中国智能时代的黎明。